运维问题一:ESXI同主机上部分VM网络中断,物理网卡有闪断告警 | 您所在的位置:网站首页 › esxi 物理网卡 › 运维问题一:ESXI同主机上部分VM网络中断,物理网卡有闪断告警 |
前话:本次问题较为棘手,同主机部分VM通信中断,虽有物理网卡关闭告警信息,但无硬件报错,且有较多业务受影响。 处理问题时,需要顶住多部门的压力,优先恢复重要业务,冷静处理问题。最后再做问题追踪,溯源。 运维心态:遇到问题不要慌,冷静思考下,逻辑不能乱。 一、环境介绍 ESXI6.5 二、问题描述 2.1、 Vmware平台物理机(2台)陆续发生3次上联业务平面网卡(万兆物理双上联,其中1块网卡)无法通信的情况,影响部份在此网卡上回源的虚拟机通信中断, 2.2 硬件表现:VC平台有物理网卡自动关闭告警信息,但主机硬件显示正常,无硬件告警信息,主机健康状态正常,系统正常(Hypervisor),网卡连接状态正常。系统及硬件层面无异常。 2.3、VM迁移至其他主机,VM正常访问,通信恢复 三、解决过程 1、ssh到主机,输入esxtop命令,按n显示网络界面,查看 TEAM-PNIC DNAME 下的网卡名称。确认无法通信的VM所在那个P-NIC上
2、 确认所有受影响的VM是否在同一个P-NIC上。(本次所有受影响VM全在同一P-NIC上)可使用命令手动关闭该物理网卡,这样VM所使用的上行链路会进行切换。 localcli network nic down -n vmnic1 待网络修复之后,您可以再使用下面的命令重启启用该网卡 localcli network nic up -n vmnic1 也可使用ESXCLI命令。 esxcli network nic list esxcli network nic down -n vmnic0 esxcli network nic up -n vmnic0
3、使用命令手动切换网卡后,所有受影响的VM,恢复正常通信。
4、受影响业务恢复正常。收集日志,报修厂家CASE,查找问题原因,如下为引用“ 根据日志,结合官方KB中类似问题的结论, 确认当Intel x710/X722网卡接收到OS层应用执行特定的数据包时(已知的12种数据包中中有4种会导致此问题),x722网卡无法处理这些数据包,会尝试关闭并重置网卡,如果这些数据包在业务环境中持续存在,网卡将持续发生重置。” 5、最终处理结果为,升级网卡的驱动和固件版本,运行,观察一个月,如上问题未再出现。(后续有专门讲怎样查看网卡的驱动和固件,并结合厂家的兼容性列表进入升级)
四、问题总结 优先恢复受影响的VM机器。再后续追踪,查找问题根源,彻底解决问题。 |
CopyRight 2018-2019 实验室设备网 版权所有 |